| 序号 | 英文字段 | 中文字段 | 字段类型 | 备注 |
| 1 | doc_id | 文章ID | 核心字段 | 文章ID,用url生成 |
| 2 | media_primary_classify | 媒体一级分类 | 核心字段 | 媒体一级分类 |
| 3 | media_secondary_classify | 媒体二级分类 | 核心字段 | 媒体二级分类 |
| 6 | title | 标题 | 核心字段 | 文章标题,微博标题用账号代替 |
| 7 | author | 作者 | 核心字段 | 文章作者 |
| 8 | content_abstract | 内容摘要 | 核心字段 | NLP字段,内容摘要,文章是从nlp走,微博没有 |
| 9 | keyword | 关键词 | 核心字段 | NLP字段,内容关键词,文章、微博都有 |
| 10 | content | 正文 | 核心字段 | 文章正文 |
| 12 | fingerprint | 语义指纹 | 核心字段 | NLP字段,用于文章正文排重 |
| 13 | source_website | 发布来源 | 核心字段 | 发布来源的站点名称 |
| 14 | capture_website | 采集版权来源 | 核心字段 | 版权来源,从页面获取到的来源媒体,只涉及文章 |
| 15 | media_bag_ids | 新闻媒体包id集合 | 核心字段 | 新闻媒体包id集合,目前只有中央网信办稿源库 |
| 24 | copyright_originalFlag | 版权原创转发标志 | 扩展字段 | |
| 25 | copyright_unit | 版权单位(算法) | 扩展字段 | 版权单位名称id,通过算法获取版权单位名称跟媒体单位匹配 |
| 27 | url | 原文URL | 核心字段 | 原文网址 |
| 28 | publish_time | 发布时间 | 核心字段 | 文章或微博的发布时间 |
| 29 | website_id | 发布来源站点Id | 核心字段 | 发布站点的站点ID |
| 30 | channel_id | 发布来源频道Id | 核心字段 | 发布来源的频道ID |
| 31 | childsite_id | 发布来源子站点Id | 核心字段 | 发布来源的子站点ID |
| 32 | similar_channel_id | 相似频道ID | 扩展字段 | 相似频道编码ID,6月2日新增字段,众云会用到 |
| 33 | similar_website_id | 相似子站点ID | 扩展字段 | 相似子站点编码ID,6月2日新增字段,版权排重会用到 |
| 34 | childsite_name | 发布来源子站点名称 | 核心字段 | 发布来源的子站点名称,5月7日新增字段 |
| 35 | is_sensitive_website | 是否敏感站点 | 延展字段 | 新增字段,判断是否外媒的敏感站点,判断依据为website_blacklist表的filterType 字段,值为2代表敏感-屏蔽站点,3代表敏感-屏蔽领导人 |
| 36 | is_important_website | 是否重点站点 | 延展字段 | 新增字段,判断是否重点站点,根据站点表isEmphasis 字段,1重点 2非重点 3低价值 |
| 37 | channel_name | 频道名称 | 核心字段 | 新增字段 |
| 38 | navigation | 网站导航 | 核心字段 | 新增字段,网站导航路径,面包屑字段 |
| 39 | media_institution_id | 媒体单位ID | 核心字段 | 新增字段,单位机构ID,用于媒体矩阵功能 |
| 40 | media_matrix_id | 媒体矩阵ID | 核心字段 | 新增字段,多值字段,用于媒体矩阵功能,可以分属不同媒体矩阵 |
| 41 | media_user_id | 自媒体所属平台账号ID | 核心字段 | 新增字段,如今日头条用户id,微博uid,微信biz |
| 42 | media_user_name | 自媒体账号名称 | 核心字段 | 新增字段,自媒体账号名称 |
| 43 | media_regnize | 自媒体是否认证 | 核心字段 | 新增字段,标识自媒体账号是否认证 |
| 45 | fans_num | 自媒体账号粉丝量 | 核心字段 | 新增字段 |
| 46 | digg_num | 自媒体账号点赞总量 | 核心字段 | 新增字段 |
| 47 | image_video_flag | 是否含有图片、视频 | 延展字段 | 新增字段,用于标识文章正式是否包含图片及视频 |
| 48 | image_store_path | 图片存储地址 | 延展字段 | 新增字段,网页图片下载到本地后的存放路径 |
| 49 | image_ocr_content | 图片OCR识别文本内容 | 延展字段 | 新增字段,网页中图片OCR识别HOU 结果 |
| 50 | video_store_path | 视频存储地址 | 延展字段 | 新增字段,网页视频下载到本地后的存放路径 |
| 51 | video_ocr_content | 视频OCR识别文本内容 | 延展字段 | 新增字段,网页视频OCR文本识别后的文本内容 |
| 52 | media_country | 媒体所在国家 | 延展字段 | 新增字段,媒体所在国家 |
| 53 | language | 媒体语种 | 延展字段 | 新增字段,媒体语种 |
| 54 | media_icp_area | 媒体icp地域 | 验证字段 | 新增字段,媒体icp注册地地域,地域编码 |
| 55 | media_area_level | 媒体行政地域级别 | 延展字段 | 新增字段,媒体行政地域级别 |
| 56 | video_cover_url | 视频封面图片 | 核心字段 | 新增字段 |
| 58 | is_foreign_media | 是否境外 | 验证字段 | 是否境外媒体 |
| 59 | user_head | 自媒体头像地址 | 核心字段 | 用于存放自媒体头像图片地址 |
| 60 | image_url | 内容图片 | 核心字段 | 内容中的图片原始链接地址,如有多幅图片,则存多张图片的原始地址 |
| 61 | video_url | 内容视频 | 核心字段 | 新增字段,内容中的视频原始链接地址,如有多个视频,则存多个视频的原始地址 |
| 62 | layout_name | 版面名称 | 核心字段 | 数字报刊版面名称 |
| 63 | layout_code | 版面编号 | 核心字段 | 新增字段,数字报刊版面编号 |
| 64 | area_attr | 地域属性 | 延展字段 | 内容地域属性,文本提及地域,并在提及地域基础上逐级上溯,直至最高地域范围。如海淀区、北京市、华北地区 |
| 65 | content_length | 文章字数 | 核心字段 | 文章字数 |
| 66 | load_time | 入库时间 | 核心字段 | 文章预处理后的时间戳 |
| 67 | crawler_time | 采集时间 | 核心字段 | 文章采集的时间戳 |
| 68 | service_id | 采集来源 | 核心字段 | 采集来源,如:元搜索、自动采集等 |
| 69 | del_flag | 是否删除 | 核心字段 | 文档是否删除标志位 |
| 70 | meidia_weight(搜索新增了media_weight ) | 媒体权重 | 延展字段 | 媒体权重,对应weibsite表的媒体权重字段 |
| 72 | first_publish | 是否首发媒体 | 延展字段 | 判断文章是否首发,通过算法计算,之前北京公安项目使用,目前只给部分数据赋值,后续计划全量赋值 |
| 73 | internet_content_provider | ICP互联网内容提供商 | 延展字段 | 信息源相关字段,一般用于数据下载 |
| 74 | content_is_negative | 文章内容正负面 | 延展字段 | NLP字段,用于正负情感倾向性分析 |
| 75 | emothion_value | 情感分值 | 延展字段 | 新增字段,NLP字段,情感分值 |
| 76 | garbage_classify | 是否垃圾文章 | 延展字段 | 业务字段,用于判断是否垃圾文章 |
| 77 | garbage_classify_id | 垃圾分类ID | 延展字段 | NLP字段,垃圾分类id |
| 78 |
| 79 | emothion_positive | 正面分值 | 延展字段 | NLP字段,情感正面分值 |
| 80 | emothion_negative | 负面分值 | 延展字段 | NLP字段,情感负面分值 |
| 81 | positive_words | 正向词 | 延展字段 | NLP字段,用于保存正向情感词 |
| 82 | negative_words | 负向词 | 延展字段 | NLP字段,用于保存负向情感词 |
| 83 | person | 人物 | 延展字段 | NLP字段,人物姓名,靠模型计算获取 |
| 84 | area | 地区 | 延展字段 | NLP字段,算法识别的地域名称,靠模型计算 |
| 85 | organization | 机构 | 延展字段 | NLP字段,机构名字,靠模型计算获取 |
| 86 | title_fingerprint | 标题语义指纹 | 验证字段 | NLP字段,标题生成的语义指纹,用于标题排重 |
| 87 | topic_area_ids | 主题地域 | 延展字段 | NLP字段,主题地域,也称呼为确主题地域,以提及地域作为候选,筛选出主要的地域,作为返回结果。如海淀区、丰台区 |
| 88 | pan_topic_area_ids | 泛主题地域 | 延展字段 | NLP字段,以确主题地域为基础,并逐级上溯,直至最高地域范围。如丰台区、海淀区、北京市、华北地区 |
| 99 | root_weibo_id | 原发微博ID | 核心字段 | 微博原发博文ID |
| 100 | root_weibo_url | 原发微博url | 核心字段 | 微博原发url |
| 101 | root_weibo_user_name | 原发博主名称 | 核心字段 | 微博原发博主名称 |
| 102 | root_uid | 原发微博uid | 核心字段 | 博主原发博主uid,删除 |
| 103 | root_user_id | 原发微博用户id | 延展字段 | 微博原发微博博uid |
| 104 | root_weibo_pub_time | 原发微博发布时间 | 核心字段 | 原发微博发布时间 |
| 105 | gender | 微博主性别 | 核心字段 | 博主性别 |
| 106 | followers_count | 微博主粉丝数 | 核心字段 | 博主粉丝数量 |
| 107 | province_id | 博主地域 | 核心字段 | 博主地域 |
| 108 | statuses_count | 发博总数 | 核心字段 | 博主发博总数 |
| 109 | user_vip | 微博主认证 | 核心字段 | 博主认证信息 |
| 110 | -1:普通用户,0:黄V ,10:微博女郎,200:初级达人,220:中高级达人,400:已故V用户,1:政府,2:企业,3:媒体,4:校园,5:公益,6:应用,7:机构,8:待审企业 |
| 111 | |
| 112 | 1-8的范围值的微博认证统称为蓝V |
| 113 | |
| 120 | original | 微博是否原发(微博) | 延展字段 | 微博字段,用于判断微博原发, |
| 121 | share_num | 转发数(微博) | 核心字段 | 转发数(原微博专用),后续微博、自媒体及新闻通用 |
| 122 | comm_num | 评论数(微博) | 核心字段 | 评论数(原微博专用),后续微博、自媒体及新闻通用 |
| 123 | like_num | 点赞数(微博) | 核心字段 | 点赞数(原微博专用),后微博、自媒体及新闻通用 |
| 124 | read_num | 阅读数(微信) | 核心字段 | 阅读数,微信常用,其它媒体也可使用 |
| 125 | watch_num | 在看数(微信) | 核心字段 | 在看数,微信专用 |
| 126 | wx_headline | 微信头条(微信) | 延展字段 | 微信头条标志,微信专用 |
| 127 | play_num | 播放数(视频) | 核心字段 | 新增字段,播放次数,视频专用, |
| 128 | dataLine | 电头 | 延展字段 | 文章电头,算法提取值,预处理环节生成 |